智能论文笔记

Masked Training of Neural Networks with Partial Gradients

Amirkeivan Mohtashami , Martin Jaggi , Sebastian U. Stich

分类：机器学习

2021-06-16

深度学习模型的最先进的培训算法基于随机梯度下降（SGD）。最近，已经探索了许多变体：用于更好的准确度（例如以EXTRARIAINT）的参数，限制SGD更新，以增加效率（例如MEPROP）的参数的子集或（例如丢弃器）的组合。然而，这些方法的收敛通常不会理论上没有研究。我们提出了一个统一的理论框架来研究这种SGD变体 - 包括上述算法，另外还有用于通信有效训练或模型压缩的多种方法。我们的见解可以用作提高这些方法效率的指南，并促进新应用的概率。作为示例，我们解决了共同训练网络的任务，其中一个版本（限于子网）用于创建可泥瓦网络。通过培训低级变压器，与标准一个，我们获得优于卓越的性能，而不是单独培训。

translated by 谷歌翻译